{ "cells": [ { "cell_type": "markdown", "id": "7c1c3bab", "metadata": {}, "source": [ "# Aula 7 - Árvores de decisão\n", "\n", "\n", "\n", "\n", "## 7.1 O pacote scikit-learn\n", "Usaremos o pacote `scikit-learn` (https://scikit-learn.org/stable/) para mineração de dados.\n", "Para instalar o pacote use:\n", "\n", "`>> pip install -U scikit-learn`\n", "\n", "As pastas do scikit-learn são organizadas de forma diferente do `pandas` e `numpy`, por exemplo, de forma que faremos a importação especifica do que precisarmos usando a sintaxe `from`. Considere que vamos usar o método `tree`, usaremos a importação:\n", "\n", "`from sklearn import tree`" ] }, { "cell_type": "markdown", "id": "f77dfed2", "metadata": {}, "source": [ "## 7.2 Importando a base de vinhos\n", "Usaremos a base wine.data para esse estudo. A base contém informações a respeito de 3 vinhos diferentes (colunas de 1 a 13), sendo que a coluna é a classificação do vinho (1,2 ou 3). Os atributos são os seguintes (todos numéricos):\n", "\n", "1. Alcohol\n", "2. Malic acid\n", "3. Ash\n", "4. Alcalinity of ash\n", "5. Magnesium\n", "6. Total phenols\n", "7. Flavanoids\n", "8. Nonflavanoid phenols\n", "9. Proanthocyanins\n", "10. Color intensity\n", "11. Hue\n", "12. OD280/OD315 of diluted wines\n", "13. Proline\n", "\n", "Mais informaçoes sobre os dados estão disponíveis em (https://archive.ics.uci.edu/ml/datasets/wine):" ] }, { "cell_type": "code", "execution_count": 2, "id": "dcc0ce31", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | 0 | \n", "1 | \n", "2 | \n", "3 | \n", "4 | \n", "5 | \n", "6 | \n", "7 | \n", "8 | \n", "9 | \n", "10 | \n", "11 | \n", "12 | \n", "13 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "1 | \n", "14.23 | \n", "1.71 | \n", "2.43 | \n", "15.6 | \n", "127 | \n", "2.80 | \n", "3.06 | \n", "0.28 | \n", "2.29 | \n", "5.64 | \n", "1.04 | \n", "3.92 | \n", "1065 | \n", "
1 | \n", "1 | \n", "13.20 | \n", "1.78 | \n", "2.14 | \n", "11.2 | \n", "100 | \n", "2.65 | \n", "2.76 | \n", "0.26 | \n", "1.28 | \n", "4.38 | \n", "1.05 | \n", "3.40 | \n", "1050 | \n", "
2 | \n", "1 | \n", "13.16 | \n", "2.36 | \n", "2.67 | \n", "18.6 | \n", "101 | \n", "2.80 | \n", "3.24 | \n", "0.30 | \n", "2.81 | \n", "5.68 | \n", "1.03 | \n", "3.17 | \n", "1185 | \n", "
3 | \n", "1 | \n", "14.37 | \n", "1.95 | \n", "2.50 | \n", "16.8 | \n", "113 | \n", "3.85 | \n", "3.49 | \n", "0.24 | \n", "2.18 | \n", "7.80 | \n", "0.86 | \n", "3.45 | \n", "1480 | \n", "
4 | \n", "1 | \n", "13.24 | \n", "2.59 | \n", "2.87 | \n", "21.0 | \n", "118 | \n", "2.80 | \n", "2.69 | \n", "0.39 | \n", "1.82 | \n", "4.32 | \n", "1.04 | \n", "2.93 | \n", "735 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
173 | \n", "3 | \n", "13.71 | \n", "5.65 | \n", "2.45 | \n", "20.5 | \n", "95 | \n", "1.68 | \n", "0.61 | \n", "0.52 | \n", "1.06 | \n", "7.70 | \n", "0.64 | \n", "1.74 | \n", "740 | \n", "
174 | \n", "3 | \n", "13.40 | \n", "3.91 | \n", "2.48 | \n", "23.0 | \n", "102 | \n", "1.80 | \n", "0.75 | \n", "0.43 | \n", "1.41 | \n", "7.30 | \n", "0.70 | \n", "1.56 | \n", "750 | \n", "
175 | \n", "3 | \n", "13.27 | \n", "4.28 | \n", "2.26 | \n", "20.0 | \n", "120 | \n", "1.59 | \n", "0.69 | \n", "0.43 | \n", "1.35 | \n", "10.20 | \n", "0.59 | \n", "1.56 | \n", "835 | \n", "
176 | \n", "3 | \n", "13.17 | \n", "2.59 | \n", "2.37 | \n", "20.0 | \n", "120 | \n", "1.65 | \n", "0.68 | \n", "0.53 | \n", "1.46 | \n", "9.30 | \n", "0.60 | \n", "1.62 | \n", "840 | \n", "
177 | \n", "3 | \n", "14.13 | \n", "4.10 | \n", "2.74 | \n", "24.5 | \n", "96 | \n", "2.05 | \n", "0.76 | \n", "0.56 | \n", "1.35 | \n", "9.20 | \n", "0.61 | \n", "1.60 | \n", "560 | \n", "
178 rows × 14 columns
\n", "\n", " | fixed acidity | \n", "volatile acidity | \n", "citric acid | \n", "residual sugar | \n", "chlorides | \n", "free sulfur dioxide | \n", "total sulfur dioxide | \n", "density | \n", "pH | \n", "sulphates | \n", "alcohol | \n", "Id | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|
quality | \n", "\n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " |
3 | \n", "6 | \n", "6 | \n", "6 | \n", "6 | \n", "6 | \n", "6 | \n", "6 | \n", "6 | \n", "6 | \n", "6 | \n", "6 | \n", "6 | \n", "
4 | \n", "33 | \n", "33 | \n", "33 | \n", "33 | \n", "33 | \n", "33 | \n", "33 | \n", "33 | \n", "33 | \n", "33 | \n", "33 | \n", "33 | \n", "
5 | \n", "483 | \n", "483 | \n", "483 | \n", "483 | \n", "483 | \n", "483 | \n", "483 | \n", "483 | \n", "483 | \n", "483 | \n", "483 | \n", "483 | \n", "
6 | \n", "462 | \n", "462 | \n", "462 | \n", "462 | \n", "462 | \n", "462 | \n", "462 | \n", "462 | \n", "462 | \n", "462 | \n", "462 | \n", "462 | \n", "
7 | \n", "143 | \n", "143 | \n", "143 | \n", "143 | \n", "143 | \n", "143 | \n", "143 | \n", "143 | \n", "143 | \n", "143 | \n", "143 | \n", "143 | \n", "
8 | \n", "16 | \n", "16 | \n", "16 | \n", "16 | \n", "16 | \n", "16 | \n", "16 | \n", "16 | \n", "16 | \n", "16 | \n", "16 | \n", "16 | \n", "
\n", " | AGE | \n", "SEX | \n", "BMI | \n", "BP | \n", "S1 | \n", "S2 | \n", "S3 | \n", "S4 | \n", "S5 | \n", "S6 | \n", "Y | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "59 | \n", "2 | \n", "32.1 | \n", "101.00 | \n", "157 | \n", "93.2 | \n", "38.0 | \n", "4.00 | \n", "4.8598 | \n", "87 | \n", "151 | \n", "
1 | \n", "48 | \n", "1 | \n", "21.6 | \n", "87.00 | \n", "183 | \n", "103.2 | \n", "70.0 | \n", "3.00 | \n", "3.8918 | \n", "69 | \n", "75 | \n", "
2 | \n", "72 | \n", "2 | \n", "30.5 | \n", "93.00 | \n", "156 | \n", "93.6 | \n", "41.0 | \n", "4.00 | \n", "4.6728 | \n", "85 | \n", "141 | \n", "
3 | \n", "24 | \n", "1 | \n", "25.3 | \n", "84.00 | \n", "198 | \n", "131.4 | \n", "40.0 | \n", "5.00 | \n", "4.8903 | \n", "89 | \n", "206 | \n", "
4 | \n", "50 | \n", "1 | \n", "23.0 | \n", "101.00 | \n", "192 | \n", "125.4 | \n", "52.0 | \n", "4.00 | \n", "4.2905 | \n", "80 | \n", "135 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
437 | \n", "60 | \n", "2 | \n", "28.2 | \n", "112.00 | \n", "185 | \n", "113.8 | \n", "42.0 | \n", "4.00 | \n", "4.9836 | \n", "93 | \n", "178 | \n", "
438 | \n", "47 | \n", "2 | \n", "24.9 | \n", "75.00 | \n", "225 | \n", "166.0 | \n", "42.0 | \n", "5.00 | \n", "4.4427 | \n", "102 | \n", "104 | \n", "
439 | \n", "60 | \n", "2 | \n", "24.9 | \n", "99.67 | \n", "162 | \n", "106.6 | \n", "43.0 | \n", "3.77 | \n", "4.1271 | \n", "95 | \n", "132 | \n", "
440 | \n", "36 | \n", "1 | \n", "30.0 | \n", "95.00 | \n", "201 | \n", "125.2 | \n", "42.0 | \n", "4.79 | \n", "5.1299 | \n", "85 | \n", "220 | \n", "
441 | \n", "36 | \n", "1 | \n", "19.6 | \n", "71.00 | \n", "250 | \n", "133.2 | \n", "97.0 | \n", "3.00 | \n", "4.5951 | \n", "92 | \n", "57 | \n", "
442 rows × 11 columns
\n", "DecisionTreeRegressor()In a Jupyter environment, please rerun this cell to show the HTML representation or trust the notebook.
DecisionTreeRegressor()